自动生物医学图像分析的领域至关重要地取决于算法验证的可靠和有意义的性能指标。但是,当前的度量使用通常是不明智的,并且不能反映基本的域名。在这里,我们提出了一个全面的框架,该框架指导研究人员以问题意识的方式选择绩效指标。具体而言,我们专注于生物医学图像分析问题,这些问题可以解释为图像,对象或像素级别的分类任务。该框架首先编译域兴趣 - 目标结构 - ,数据集和算法与输出问题相关的属性的属性与问题指纹相关,同时还将其映射到适当的问题类别,即图像级分类,语义分段,实例,实例细分或对象检测。然后,它指导用户选择和应用一组适当的验证指标的过程,同时使他们意识到与个人选择相关的潜在陷阱。在本文中,我们描述了指标重新加载推荐框架的当前状态,目的是从图像分析社区获得建设性的反馈。当前版本是在由60多个图像分析专家的国际联盟中开发的,将在社区驱动的优化之后公开作为用户友好的工具包提供。
translated by 谷歌翻译
尽管自动图像分析的重要性不断增加,但最近的元研究揭示了有关算法验证的主要缺陷。性能指标对于使用的自动算法的有意义,客观和透明的性能评估和验证尤其是关键,但是在使用特定的指标进行给定的图像分析任务时,对实际陷阱的关注相对较少。这些通常与(1)无视固有的度量属性,例如在存在类不平衡或小目标结构的情况下的行为,(2)无视固有的数据集属性,例如测试的非独立性案例和(3)无视指标应反映的实际生物医学领域的兴趣。该动态文档的目的是说明图像分析领域通常应用的性能指标的重要局限性。在这种情况下,它重点介绍了可以用作图像级分类,语义分割,实例分割或对象检测任务的生物医学图像分析问题。当前版本是基于由全球60多家机构的国际图像分析专家进行的关于指标的Delphi流程。
translated by 谷歌翻译
如果没有巨大的数据集,许多现代的深度学习技术就无法正常工作。同时,几个领域要求使用稀缺数据的方法。当样本具有变化的结构时,此问题甚至更为复杂。图表示学习技术最近已证明在各种领域中都成功。然而,当面对数据稀缺时,就业的体系结构表现不佳。另一方面,很少的学习允许在稀缺的数据制度中采用现代深度学习模型,而不会放弃其有效性。在这项工作中,我们解决了几乎没有图形分类的问题,这表明将简单的距离度量学习基线配备了最新的图形嵌入式嵌入者,可以在任务上获得竞争性结果。虽然体系结构的简单性足以超越更复杂的功能,它还可以直接添加。为此,我们表明可以通过鼓励任务条件的嵌入空间来获得其他改进。最后,我们提出了一种基于混合的在线数据增强技术,该技术在潜在空间中起作用,并显示其对任务的有效性。
translated by 谷歌翻译
我们探索跨语性多演讲者语音综合,并将跨语性语音转换应用于自动语音识别(ASR)系统的数据增强。通过广泛的实验,我们表明我们的方法允许语音合成和语音转换的应用,以在模型培训期间仅使用一个目标语言使用者在目标语言上改善ASR系统。与使用许多讲话者的其他作品相比,我们设法缩小了经过合成的与人类语音训练的ASR模型之间的差距。最后,我们表明,只使用目标语言的单个真实扬声器,可以通过我们的数据增强方法获得有希望的ASR培训结果。
translated by 谷歌翻译
两区图像分割是将图像分为两个感兴趣的区域,即前景和背景的过程。为此,Chan等人。[Chan,Esedo \ = Glu,Nikolova,Siam on Applied Mathematics 66(5),1632-1648,2006]设计了一个非常适合平滑图像的模型。该模型的一个缺点是,当图像包含振荡组件时,它可能会产生不良的分割。基于要分割的图像的卡通文本分解,我们提出了一个新模型,该模型能够对图像进行准确的分割,其中还包含噪声或振荡信息(例如纹理)。新型模型导致了一个非平滑约束优化问题,我们通过ADMM方法解决了该问题。还证明了数值方案的收敛性。关于平滑,嘈杂和纹理图像的几项实验显示了所提出的模型的有效性。
translated by 谷歌翻译
我们通过与与前面令牌的局部相似度,通过调节从大语料库检索的文档块来增强自动回归语言模型。尽管使用25美元\时分,我们的检索增强型变压器(RetroCro)的检索增强型变压器(RetroCr)对GPT-3和侏罗纪-1获得了可比性的性能。微调后,复古表演转换为下游知识密集型任务,如问题应答。复古结合了冷冻BERT猎犬,一种可微分的编码器和块状的横向机制,以预测基于数量级的令牌,而不是训练期间通常消耗的数量。我们通常从头开始训练复古,还可以快速改造预先接受的变压器,通过检索,仍然达到良好的性能。我们的工作通过以前所未有的规模开辟了通过显式内存改进语言模型的新途径。
translated by 谷歌翻译
YOUTTS为零拍摄多扬声器TTS的任务带来了多语言方法的力量。我们的方法在VITS模型上构建,并为零拍摄的多扬声器和多语言训练增加了几种新颖的修改。我们实现了最先进的(SOTA)导致零拍摄的多扬声器TTS以及与VCTK数据集上的零拍语音转换中的SOTA相当的结果。此外,我们的方法可以实现具有单扬声器数据集的目标语言的有希望的结果,以低资源语言为零拍摄多扬声器TTS和零拍语音转换系统的开放可能性。最后,可以微调言论不到1分钟的言论,并实现最先进的语音相似性和合理的质量。这对于允许具有非常不同的语音或从训练期间的记录特征的讲话来合成非常重要。
translated by 谷歌翻译